07. 数据类型总结
数据类型总结
概括
下表总结了我们的数据类型。
| 数据类型 | | |
|---|---|---|
| 数值: | 连续 | 离散 |
| | 身高、年龄、收入 | 书中的页数、院子里的树、咖啡店里的狗 |
| | | |
| 分类: | 定序 | 定类 |
| | 字母成绩等级、调查评级 | 性别、婚姻状况、早餐食品 |
以下是上表中分享的信息的一些细节。
要扩展表中的信息,你可以查看以下文本。
换个角度看
要分解我们的数据类型,主要有两大块:
数值和分类
数值可以进一步分为连续
与离散
。
分类数据可以分为定序
与定类
。
你现在应该已经掌握了我们周围世界里的哪种数据属于这四大类:离散、连续、定类和定序。在后面的小节,我们将详细介绍与数值变量有关的数值总结。
数值与分类
其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。
身高、年龄、书中的页数和年收入采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是数值
数据。
性别、字母成绩等级、早餐类型、婚姻状态和邮政编码可以视为一组物品或个人的标签。因此,它们是分类
数据。
连续和离散
要区分我们的数据是连续还是离散的,要看我们是否能将数据分割成更小的单元。想想时间 —— 我们可以用年、月、日、小时、分钟或秒来衡量一个事件,甚至是在秒级,我们知道仍然有更小的单位可以用来衡量时间。因此,我们知道此数据类型为连续的。身高、年龄和收入都是连续数据
的例子。或者,我们知道书中的页数、我数的咖啡店外的狗数量或院子里的树为离散数据
。我们可不想将狗一分为二。
# 定序与定类
在看定类变量时,我们发现性别、婚姻状态、邮政编码和早餐食品为定类变量
,这种类型的数据没有相关的顺序排列。无论你早餐吃麦片粥、吐司、鸡蛋还是只喝咖啡,它并没有相关的排序。
相反,字母成绩等级或调查评级作为定序数据
具有关联的排序。如果获得 A,它高于 A-。A- 的排名高于 B+,以此类推……定序变量在评级量表上很常见。在很多情况下,我们将这些定序变量变为数字,这样可以更容易地进行分析,稍后我们再详细说明这一点!
总结
在本节中,我们研究了我们会在生活中使用的不同数据类型。当我们在现实生活中使用数据时,它可能不是很干净,有时会有错字或值缺失。在这种情况下,拥有数据方面的专业知识并了解数据类型可以帮助我们清理数据。理解数据类型也可以帮助我们创建可视化来解释数据。稍后详细说明这点!